Rilevamento delle anomalie

Nell'analisi dei dati, il rilevamento delle anomalie (anche detto rilevamento degli outlier)^[1] è l'identificazione di osservazioni, elementi, eventi rari che differiscono in modo significativo dalla maggior parte dei dati.^[1] Tipicamente gli elementi anomali porteranno a qualche tipo di problema, ad esempio casi di frode bancaria, difetti strutturali, problemi medici o errori in un testo. Le anomalie sono indicate anche come outlier, novelty, rumore, deviazioni o eccezioni.^[2]

In particolare, nel contesto del rilevamento di abusi e intrusioni di rete, gli elementi anomali spesso non sono elementi che occorrono raramente, ma piuttosto picchi di attività inaspettati. Questo pattern non corrisponde alla definizione statistica comune di un valore anomalo come oggetto raro e molti metodi di rilevamento dei valori anomali (in particolare metodi non supervisionati) falliranno su tali dati, a meno che non siano stati aggregati in modo appropriato. Invece, un algoritmo di analisi dei cluster potrebbe essere in grado di rilevare i micro cluster formati da questi pattern.^[3]

Esistono tre grandi categorie di tecniche di rilevamento delle anomalie, a seconda di quanto supervisionato l'algoritmo.^[4] Le tecniche non supervisionate rilevano le anomalie in un dataset di prova non etichettato partendo dal presupposto che la maggior parte delle istanze nel dataset siano normali e cercando le istanze che sembrano adattarsi meno al resto dei dati. Le tecniche supervisionate, invece, richiedono dataset etichettati come "normale" e "anormale" e comportano l'addestramento di un classificatore (la differenza fondamentale rispetto a molti altri problemi di classificazione statistica è la natura intrinseca sbilanciata del rilevamento dei valori anomali). Infine, le tecniche di rilevamento semi-supervisionate, a partire da un determinato dataset, costruiscono un modello che rappresenta il comportamento "normale", e quindi, data un'istanza di test, verificano la probabilità che questa venga generata dal modello costruito.

^ ^a ^b Outlier Detection, DOI:10.1007/978-1-4899-7993-3_80719-1, ISBN 9781489979933.
^ Victoria Hodge e Jim Austin, A Survey of Outlier Detection Methodologies, in Artificial Intelligence Review, vol. 22, 2004, DOI:10.1007/s10462-004-4304-y.
^ Data mining for network intrusion detection (PDF), in Proceedings NSF Workshop on Next Generation Data Mining, 2002.
^ Anomaly detection: A survey, in ACM Computing Surveys, vol. 41, n. 3, 2009, pp. 1–58, DOI:10.1145/1541880.1541882.

[:0-1] Outlier Detection, DOI:10.1007/978-1-4899-7993-3_80719-1, ISBN 9781489979933.

[2] Victoria Hodge e Jim Austin, A Survey of Outlier Detection Methodologies, in Artificial Intelligence Review, vol. 22, 2004, DOI:10.1007/s10462-004-4304-y.

[3] Data mining for network intrusion detection (PDF), in Proceedings NSF Workshop on Next Generation Data Mining, 2002.

[ChandolaSurvey-4] Anomaly detection: A survey, in ACM Computing Surveys, vol. 41, n. 3, 2009, pp. 1–58, DOI:10.1145/1541880.1541882.

[1]

[2]

[3]

[4]